东证期货:钢材现货跨区价差基本面量化研究
本文来自东证衍生品研究院,作者:章顺 资深分析师(基本面量化),联系人:王伟迪 分析师(基本面量化)。如需转载,请联系原作者。更多精彩内容,请下载扑克财经App(iOS及安卓版本均可下载)。
报告日期:2019年4月18日
★主要结论:
从区域间的生产量和消费量来看,每年的跨区交易的贸易总额达到接近2.7万亿元。由此可见钢材的现货跨区交易对于现货贸易商和生产商来说是重要的交易组成部分,而区域间的价差更是跨区交易的重要指标。为了能够辅助现货企业进行跨区交易,我们从基本面量化的角度提出客观的价差预测分析。
首先我们通过线性回归的方法进行筛选因子,将影响不同的地区价差的主要显著性因子列举出来。除了为最终的模型的建立提供因子库,也给现货企业提供一些能够影响价差的重要指标。
其次我们通过全子集回归和滚动回测,针对北上广三地之间的价差构建了预测模型。回测数据全部采用样本外数据以保证模型的实战意义。周度模型回测区间3年,月度模型4年。在回测区间内,模型获利区间在40%到300%,其中广州到北京的螺纹钢价差月度模型最优,获利接近300%,胜率在62%左右。可见大部分模型具有一定的稳健性和盈利性。
除此之外我们对螺纹钢历史套利机会进行了回顾,在价差扣除运输成本后,北京上海一年的套利机会在70天左右,北京广州一年套利机会在230天左右,上海广州一年的套利机会在270天左右。
1
钢材跨区价差分析
跨区价差概念
价差套利主要分为三种,分别是跨期套利,期现套利和跨区套利。本研究主要针对的是黑色金属的现货跨区套利。所谓跨区套利,简单的来说就是将北边买的东西卖到南边去或者将东边的东西卖到西边去,通过同一产品在不同地区的价格差异来获利的过程。跨区价差是反应两个区域的供需平衡及两个区域宏观政策的重要指标。当一个区域的供需所决定的价格变高,跨区贸易就会被启动,从价格低的地区向价格高的地区输送来补充价格高的区域的供给量使得该区域供需重新达到平衡点。而反之亦然。
钢材区域现状与价差形成分析
从上海和广州的价差图,区域供应量以及全国钢厂的分布图中我们可以看到几点:
1.广州的螺纹钢价格要高于上海螺纹钢的价格,价差的范围在100到800之间,平均价差在300左右。而一吨螺纹钢从上海运到广州的物流成本在150元左右,以平均价差来看,还有很大的套利空间。
2.上海和广州的价差主要原因在于我国南北矿产资源分配不均,以及由于地域气候不同导致的开工时间和需求不同所造成的。从钢厂的分布来看,钢厂主要集中在我东北部区域,分别是辽宁,河北,山东,江苏和上海。尤其上海除了周边钢厂比较多,由于经济发展迅速,港口发达也使得很多钢厂将资源集中于此。
3.从图中也看到了价差的上下波动比较大。而上海到广州还有一个运输时间跨度,因此对于价差的预测显得尤为重要。
4. 从区域内企业供应量和区域内钢材消费量来看, 华北和东北两个区域属于钢材净流出地区,合计流出量接近9000万吨。华东,西南和中南为主要的钢材净流入地区,流入量大概也在9000万吨左右。这也可以从钢厂的分布图中得到印证。因此,由于地区间的供需不平衡,每年大概有9000万吨的钢材需要进行跨区交易。以每吨3000元的交易价格,每年有2.7万亿元的交易额涉及到跨区交易。而市场上几乎没有针对跨区价差的研究。我们的研究即填补了这段空白,同时也希望带给钢材现货企业不一样的视角。
图表4:中国钢厂分布图
资料来源:Wind
图表5:技术路线
资料来源:东证衍生品研究院
主要研究分为四个部分,第一部分通过对基本面的研究,确定初始指标。第二部分,以初始指标作为自变量,跨区域价差作为因变量,进行一元线性回归。将其中具有显著性的指标挑出。第三部分,以第二部分挑出来的指标作为自变量,跨区域价差作为因变量,进行弹性多元网络回归。通过对相关性分析,去除多元共线性指标。第四部分,在以上两个线性回归的基础上,进行全子集回归,挑选出几组最优回归指标。第五部分,利用最优指标进行样本外滚动回测,检测模型是否有效并确定最终模型。
理论方法
一元线性回归
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。其表达形式为 ,e为误差,服从均值为0的正态分布。
其中在做线性回归分析之前,我们针对时间序列指标进行了平稳性检验。对非平稳的时间序列进行回归将会导致伪回归的发生,对指标选取产生错误信号。
平稳性检验
通常所说的随机过程的平稳性概念有弱平稳和严平稳两种,时间序列分析中通常所指的平稳随机过程就是弱平稳随机过程。金融时间序列一般呈现明显的时间趋势,在检验时间趋势之前,需要确定在时间序列中是否存在单位根。在单位根假设被拒绝后,才可以确定数据是由带趋势的稳定过程产生的。
David Dickey 和 Wayne Fuller的单位根检验即迪基——富勒(DF)检验是在对数据进性平稳性检验中比较常用到的一种方法。本研究采用的是增广的DF检验即ADF检验,模型如下:
其中t是时间或趋势变量,此时的零假设为:。如果拒绝零假设,则原时间序列没有单位根,此时原序列是平稳的,如果不能拒绝零假设,则原序列有单位根,序列不平稳。
当我们对序列检验发现不平稳的情况下,为了防止伪回归的发生,我们通常选择对指标序列进性差分处理,对于一般金融数据一阶差分后,即由总量数据变为增长率,一般会平稳。
弹性网络回归
弹性网络回归(Zhou和Hastie,2005)是一种使用L1和L2先验作为正则化矩阵的线性回归模型.这种组合用于只有很少的权重非零的稀疏模型,比如Lasso回归, 但是又能保持岭回归的正则化属性.我们可以使用 l1_ratio 参数来调节L1和L2的凸组合(一类特殊的线性组合)。当多个特征和另一个特征相关的时候弹性网络非常有用。Lasso 倾向于随机选择其中一个,而弹性网络更倾向于选择两个。
弹性网络在岭回归和Lasso回归中进行了折中,通过混合比r进行控制:
弹性网络变为岭回归
弹性网络变为Lasso回归
弹性网络的目标方程:
一般来说,我们应避免是用朴素线性回归,而应对模型进行一定的正则化处理,弹性网络回归使用更为广泛,比Lasso回归表现更为稳定。
全子集回归
全子集回归是一种提出预测组合的新的回归方法。方法是由Elliott等在2013年提出来的。全子集回归的方法主要是将所有具有预测潜力的参数因子放入一个集合中,将集合中的所有因子按照不同的因子数量进行排列,组成回归方程组。并在这些预测方程组中,按方差和调整方差等指标选出最有效的参数因子组合方程组。全子集回归与传统的等权重因子投资组合理论相比预测更准确,更科学。
这种方法的思想很简单,就是把所有的因子组合都尝试建模一遍,然后选择最优的模型。基本如下:
对于p个预测因子,从k=1到k=p
从p个预测因子中任意选择k个,建立C(p,k)个模型,选择最优的一个
从p个最优模型中选择一个最优模型
滚动预测
滚动预测是指通过对新一期的数据进行学习之后,对下一期的数据进行预测的一种预测方法。具体方法步骤如下:
首先将新一期的数据加入到数据序列中。
重新生成多元回归模型以及参数
通过新生成的模型预测下一期数值
2
初始指标选取
在价差指标中,我们主要选取三个具有代表性的城市之间的价差。主要为北京,上海,广州分别代表的华北,华东,华南三地。同时这三个地方也是重要的钢材生产和消费中心。三个地方之间的价差具有指标和现实意义。因此我们选择了:热轧板卷:Q345:5.75mm 上海,热轧板卷:Q345:5.75mm 广州,热轧板卷:Q345:5.75mm 北京,螺纹钢:HRB400 20mm:上海,螺纹钢:HRB400 20mm:广州,螺纹钢:HRB400 20mm:北京。
研究大宗商品的价格主要从供给和需求两方面出发,微观程度上大宗商品的价格主要由供需之间的平衡来决定。而我们发现除了供需以外,宏观的一些因素对大宗商品的价格也有一定影响,因此我们在研究中将宏观指标也纳入考虑。除此之外,运费的价格也在一定程度上影响地区之间的价差。基于此,本研究选择了大约300个相关基本面指标用来作为量化模型的指标筛选库。具体指标如下:
供给指标的筛选,本研究主要根据黑色金属的冶炼过程所需的原产料。钢铁的冶炼原材料包括铁矿石、焦炭和焦煤以及铁合金等黑色系商品。一般而言,1 吨焦炭需要 1.33 吨左右的焦煤,而炼制 1 吨生铁则需要 1.6 吨左右的铁矿石和 0.5 吨左右的焦炭。除此之外,由于电炉炼钢生产线逐渐增加,废钢也是主要的钢材生产材料。而库存作为供给和需求的中间指标,我们暂时将其放在供给指标当中。因此在供给指标中,本研究将其分为:铁矿石,焦煤焦炭,生铁,废钢,粗钢,钢材,库存。
大宗商品的价格通常由供需的平衡来决定,螺纹钢和热轧卷板同样遵循着这样的规则。由于螺纹钢和热轧带卷的下游应用场景不同,我们将螺纹钢和热轧带卷这两个品种的需求分开来考虑。螺纹钢主要应用在建筑材料上,受房地产和基建需求影响比较大。而热轧带卷主要的应用在汽车,家电,造船等领域。因此针对螺纹钢和热轧卷板,我们精选了不同的需求指标。
在跨区域价差中,运输价格通常对价差有很大的影响。而其中海运价格对螺纹钢和热轧卷板影响较大,通常大宗的钢材和铁矿石都采用海运运输。除此之外我们加入了汽油柴油等间接能源指标来丰富运价体系。
一元线性回归因子筛选
本研究的跨区价差模型包括周度模型和月度模型。因此在一元线性回归筛选中,我们也将数据分为周度数据和月度数据进行因子筛选。
在进行一元线性回归之前,我们会进行数据清洗,将日度数据转换成周度数据或者月度数据,并将去掉不合理的和缺失的数据。之后我们进行了差分处理得到平稳的时间序列数据。数据处理之后我们得到针对不同地方价差的具有显著性的因子。
各地区各品种价差因子显著性分析
1)螺纹钢
我们分别对所有周度因子进行了一元线性回归,从中挑出具有显著意义的41个因子,如下图。我们应用了T值来确定因子是否具有显著性。我们设定了当T值大于1的时候具有显著性。这比正常的显著性因子略有放宽,因为对于跨区价差来说很难用单一线性因子来解释,为了之后的全子集回归具有更多的可能性,我们将因子略有放宽。除此之外为了避免伪回归的出现,我们通过ADF检验了因子数据的平稳性。当ADF检验p值低于5%的时候拒绝不平稳的原假设。因此我们从表中数据看到,这41个因子经过一阶差分后的ADF检验p值都小于5%,因此都拒绝不平稳的原假设,说明这些因子在一阶差分下为平稳数据。
2)热轧卷板
热轧卷板的周度模型与螺纹钢的周度模型相比,显著性的因子比较相似,主要以库存为主,各地区的原料价格为主。其中螺纹钢主要为螺纹钢的库存而热轧卷板主要是以热卷的库存为主。除此之外,还有运输的一些指标对于价差也有显著性意义。例如:铁矿石运价,好望角型运价指数等。
热轧卷板的月度显著性指标除了产量以外,也集中在需求端的一些指标,比如热轧卷板的下游产品冷轧板:表观消费量:冷轧窄钢带:当月值,产量:冷轧窄钢带:当月值,以及下游的汽车需求和造船需求。由此可见价差指标对需求和产量的指标相对敏感,比较符合逻辑预期。除此之外,工业增加值和运输指数一些宏观经济指标也具有显著意义。
跨地区价格因为地区的不同,所以模型筛选出来的因子也会不同。因此我们做了一下横向的比较,附表31中标红的为北京广州螺纹钢的价差和北京上海螺纹钢价差共有的23个显著性因子,占筛选出来的因子一半。其中主要原因一是两个价差因子都有北京这一地区,因此与北京螺纹钢价格有关的因子会都被选入。二是很多原产料价格和宏观因子对各个地区的价格也会有相同的影响。其中这些因子虽然都被选入,我们也看到一些因子的显著程度不同,例如在京广价差中,广州的库存的显著性程度较高,而在京沪价差中,杭州的库存显著性比较高,广州的库存显著性很低。通过不同地区价差之间的对比,一元回归筛选的逻辑性较强,符合预期。其他特点与京沪价差相同,具体京广螺纹钢和热卷价差,沪广螺纹钢和热卷价差显著性因子请参考附表。不在正文中一一列出。
4
弹性网络线性回归因子筛选
由于弹性网络回归本质上是岭回归和Lasso回归的组合,因此其保留了Lasso回归特性。当一个模型中有相关联的变量的时候,Lasso回归只会保留其中一个变量并将其它相关联的变量系数设置为零。因此在大规模数据中,比如有1000个特征,其中一些特征是相关的,也就是构成多重共线性,通常会利用Lasso回归进行相关性特征筛选。
本研究也通过弹性网络回归的Lasso功能进行对大量因子的筛选,以消除最后模型的多重共线性。我们在一元回归的显著性因子的基础上,进行多元弹性网络回归,以选出非共线性因子。
经过对12个目标价差及其特征变量进行弹性网络回归之后,我们发现如下共线性的因子:
从共线性因子来看,主要为宏观因子,因此对月度的数据影响比较大。因为宏观因子对长期的趋势影响较明显,而对短周期的影响有限。因此我们看到周度显著性因子中,较少有共线性因子出现,而月度显著性因子中较多。
除此之外,同一类别的数据较容易形成共线性,如CPI,PPI数据,库存数据,和同一个钢厂的不同产品产量数据。这些数据在筛选过程中都发现其具有高度共线性。
通过弹性网络回归的筛选,我们将具有共线性的因子去除,将筛选好的因子进行全子集回归。
5
全子集回归价差模型确定
及模拟交易净值
全子集回归本质是将所有相关因子进行遍历,以寻找最优的因子组合。当与目标变量相关的因子越多的情况下,全子集所得出来的最优因子组合效果会更好。但是全子集回归由于是遍历的方法寻求最优解,这也有一个大的弊端,就是当因子数量多,数据量比较大的情况下会造成运行时间增加甚至会算不出来结果。因此我们通过一元线性回归和弹性网络回归将因子控制在50个以内。通过这些精选因子进行全子集回归,来获得最优因子组合模型组。最后我们通过滚动回归的方式,对模型有效性进行测试。
在滚动回测过程中,我们在周度模型中选择30周作为基础回归样本,然后每形成新的一周数据时候对模型进行调整。调入新一周数据,调出最早一周数据,是样本稳定在30周。在月度模型中,因为样本数据有限,我们采用20个月作为基本回归样本,同样采用每一月调整样本数据的模式。这样使得模型具有一定的学习功能。
以下为针对不同地区的螺纹钢和热轧卷板的周度月度价差精选模型:
北京上海螺纹钢周度价差模型
从京沪价差模型因子来看,主要以北京地区和上海地区附近的库存和原材料价格为主。周度指标为短期指标,对于地区内的供需关系比较敏感,符合基本面的逻辑。
京沪螺纹钢周度价差模型因子:印尼:国债收益率:10年,价格:铁精粉:66%:干基含税:北京,库存:螺纹钢:石家庄,价格:方坯:20MnSi:江苏,煤炭库存:曹妃甸港,市场价:二级冶金焦:山东,车板价:二级冶金焦:内蒙古,出厂价(含税):硅铁:75A:内蒙,唐山钢厂:高炉开工率。
我们可以看到北京上海螺纹钢的周度模型的预测值与实际值拟合程度较高,趋势性比较一致。
北京上海螺纹钢月度价差模型
从月度因子来看,主要以宏观的工业增加值和原材料产量为主。可以看到月度因子更需要通过一些宏观性的因子来判断走势。
京沪螺纹钢月度价差模型因子:工业增加值:当月同比,北京:工业增加值:可比价:当月同比,产量:天然气:当月值,产量:铁矿石原矿量:当月值,价格:球团矿:62%:干基含税现汇出厂价:繁昌,场存量:煤炭:广州港,方大特钢:产量:生铁:当月值。
北京上海热轧卷板周度价差模型
与螺纹钢的周度价差因子大体略同,与原材料的价格相关。
京沪热卷周度价差模型因子:价格:炼钢生铁:L8-10:唐山,价格:方坯:20MnSi:辽宁,市场价:二级冶金焦:宁夏,市场价:二级冶金焦:贵州,价格:铸造生铁:Z18:广东。
北京上海热轧卷板月度价差模型
与螺纹钢的月度价差模型大体相同,多了一个下游需求因子,冷轧板的出口量。
京沪热卷月度价差模型因子:库存:热卷(板):北京,出口数量:冷轧薄板:当月值,工业增加值:集体企业:当月同比,产量:钢材:河北:当月值,价格:方坯:20MnSi:河南,价格:方坯:20MnSi:辽宁,马钢股份:产量:粗钢:当月值。
广州北京螺纹钢周度价差模型
与京沪螺纹钢周度价差大体相同,也是各地区的供需为主。
京广螺纹钢周度价差模型因子:巴西:国债收益率:10年,到厂价(含税):二级冶金焦(A13.5%,0.7%S):唐山,库存小计:锌:总计,车板价:连云港:澳大利亚:PB粉矿:61.5%,库存:螺纹钢:广州,车板价:二级冶金焦:内蒙古,出厂价(含税):硅铁:75A:内蒙,唐山钢厂:高炉开工率,库存:钢材:重点企业(旬)。
广州北京螺纹钢月度价差模型
与京沪螺纹钢月度模型大体相同。
京广螺纹钢月度价差模型因子:工业增加值:股份制企业:当月同比,陕西:本外币:各项存款余额,产量:汽油:当月值,产量:粗钢:当月值,库存小计:铝:总计,产量:钢材:辽宁:当月值,价格:球团矿:63%:干基含税承兑出厂价:淄博,价格:球团矿:62%:含税现金出厂价:鄂州。
广州北京热轧卷板周度价差模型
与京沪螺纹钢价差模型大体相同,主要为各地区的库存以及原材料价格。
京广热卷周度价差模型因子:库存:热卷(板):天津,含税价:废钢:北京,含税价:废钢:广州,价格:球团矿:62%:不含税出厂价:迁安,焦炭库存:日照港,到厂价(含税):二级冶金焦:抚顺,焦炭库存:天津港,市场价:二级冶金焦:江苏,铁矿石价格指数:62%Fe:CFR中国北方,出厂价(含税):硅铁:75A:内蒙。
广州北京热轧卷板月度价差模型
与之前的京沪热卷月度模型大致相同。
京广热卷月度价差模型因子:工业增加值:集体企业:当月同比,库存:热卷(板):北京,出口数量:冷轧薄板:当月值,产量:钢材:河北:当月值,价格:方坯:20MnSi:河南,价格:方坯:20MnSi:辽宁,马钢股份:产量:粗钢:当月值。
上海广州螺纹钢周度价差模型
与之间的京沪螺纹钢周度模型大体相同。
沪广螺纹钢周度价差模型因子:库存小计:铝:总计,平均价:十级焦煤:太原,库存:螺纹钢:广州,库存:螺纹钢:西安,价格:方坯:Q235:唐山,价格:方坯:20MnSi:唐山,价格:球团矿:63%:含税现金出厂价:徐州,价格:球团矿:62%:干基含税现汇出厂价:繁昌,出厂价(含税):二级冶金焦:银川,国产铁矿石:62%品位:干基铁精矿含税价。
上海广州螺纹钢月度价差模型
模型中出现了较多的国外流动性因子,可见上海与广州的螺纹钢价格受国外流动性有较大影响。可能上海与广州的经济受国外影响比较大的原因。
沪广螺纹钢月度价差模型因子:英国:国债收益率:10年,澳大利亚:国债收益率:10年,固定资产投资完成额:制造业:黑色金属冶炼及压延加工业:累计同比,PPIRM:燃料、动力类:当月同比,价格:球团矿:62%:干基含税现汇出厂价:铜陵,武钢股份:产量:生铁:当月值,新兴铸管:产量:生铁:当月值,唐山钢铁:产量:钢材:当月值。
上海广州热轧卷板周度价差模型
沪广热卷的价差模型因子与京沪螺纹钢的价差模型因子大体相同。都为该地区的供需指标。
沪广热卷周度价差模型因子:库存:热卷(板):上海,含税价:废钢:广州,车板价:青岛港:印度:粉矿:63.5%,车板价:天津港:巴西:粗粉:63.5%,价格:球团矿:63%:干基含税承兑出厂价:沂水,到厂价(含税):二级冶金焦:上海,价格:铸造生铁:Z18:广东,库存:钢材:重点企业。
上海广州热轧卷板月度价差模型
该模型与之前月度价差模型指标选取大体相同,但受需求端影响较大,选进了三个下游冷轧板指标。
沪广热卷月度价差模型因子:PPI:生产资料:原材料工业:当月同比,浙江:工业增加值:可比价:当月同比,进口数量:冷轧薄板:当月值,出口数量:冷轧普通中厚宽钢带:当月值,产量:冷轧薄宽钢带:当月值,产量:钢材:陕西:当月值,煤炭库存:秦皇岛港,库存小计:阴极铜:总计。
6
预测值与实际值拟合分析
除了模型净值以外,我们选取了两个模型进行预测值和实际值得拟合分析。虽然我们在净值计算中采用的是趋势性预测,但是从以下周度和月度模型中我们可以看出,趋势性拟合效果较好,尤其是周度模型的预测值趋势性基本与实际值相同。而月度模型趋势性与实际值也比较一致,但比周度模型稍差。原因主要是,周度模型的样本量较高,是通过30周的数据进行预测。月度的样本量较低只有20个月。这也说明,如果后期数据量增多,模型的准确率会有提高。
7
宏观数据与非宏观数据对比
在传统基本面研究中,一般认为宏观数据对于两地区间相同产品的价格的作用是一样的,并不会反应在彼此的价差中。而在我们因子筛选和最后的模型中,我们发现有几个模型是包含了宏观数据。因此带着这样的疑惑我们将宏观因子剔除后的模型与保留宏观因子的模型进行了对比。
我们分别去除了京沪螺纹钢周度价差模型中的“印尼:国债收益率:10年”的宏观因子以及北京上海螺纹钢月度价差模型中的“工业增加值:当月同比,产量:天然气:当月值”保留其他供需因子并进行回测与原模型比较(我们采用完全一样的回测方法),得到结果如下:
以及如下图:
我们可以清晰的看到,北京上海螺纹钢周度模型在去除了宏观因子后,净值有较大下滑(1.7-1.3),且在2016年的时候有较大回撤。而在北京上海的月度价差模型中,剔除了宏观数据的净值不仅仅远低于包括宏观数据的净值,并且达到负值。
从周度模型和月度模型的不同反应来看,宏观因子对于短期的周度模型影响比长期的月度模型要小,这也符合之前我们提出的宏观因子对于短期和长期影响不同的判断。同时也符合我们传统的基本面逻辑,短期供需占主要影响,长期宏观影响较大。
同时,我们认为宏观数据虽然在某种程度上对于不同地区的同一产品有互相抵消的影响。但是不同地区对于宏观数据和政策反应可能不同,因此地区间还是存在差异。具体宏观因素如何影响地区价差,可能需要进一步的研究。
8
模型应用范围与应用方法
本研究的净值计算方法是预测准确率的一个直观展示,并不是实际交易结果,特此声明。由于本研究是针对现货交易的支持,与期货交易相比非常复杂。比如对跨区价差交易影响比较大的运输成本问题,据了解钢材市场的运输成本每家企业都不尽相同。比如说公路运输成本大概在4毛每吨公里,铁路运输在1毛6每吨公里,海运运输可能更便宜。选择不同的运输方式,价格不一样,且每家公司资源不同因此很难一概而论,给出一个运输交易成本。并且我们前文提到了,我们其实模型提供的是价差的变化以及趋势性的预测,现货企业可以通过我们的趋势性预测并结合自己的运输成本和资金占用成本进行决策并参与价差套利交易。因此我们建议:我们模型会基于每周或每月的数据进行下一周或月的价差及趋势预测。现货企业可以根据自己本身的运输成本,资金占用成本和交易成本做出是否进行跨区价差套利的决策。也就是将我们给出的价差预测减去企业本身跨区套利交易成本,如果超过成本就可以参与,如果低于成本就不参与。
9
历史跨区套利机会回顾
跨区的价差通常需要减掉一定的运输成本如果还有收益的话就会产生机会。因此我们在这章回顾了2018年的北上广之间的螺纹钢的跨区套利机会。
根据铁路公开信息测算,运送钢材的成本大概在0.16元到0.19元之间。上海和北京之间的运输里程大概在1000公里左右,因此我们设定北京到上海每吨运输成本在170元左右。海运成本一般来说要比铁路便宜很多,但由于海运运输成本计算复杂,差异性较大,并受宏观环境变化较大,因此我们这里给出的是一个大概价格。海运成本去除掉港杂费,装卸费一类的成本大概是铁路的三分之一。如果将其它一些费用考虑在内,我们认为成本在铁路运费的三分之二左右。因此我们从北京到上海的套利机会图表来看,数据样本内的320天中有74天可以进行跨区套利,参考铁路运输运费,主要集中在下半年,大幅套利机会有4到5次,如果能够对套利时间有精准的预测,将会带来每吨300左右的收益。因此北京上海跨区套利是可行的。
我们从上海广州的套利机会看到,广州和上海的套利机会较大,最高的时候达到700甚至,套利时间也比较多,320天内有270天的套利机会。但实际我们了解的情况下来,因为上海和广州之间的交易方法不同。广州主要采用的是检斤的价格,而上海主要采用的是检尺的价格。每吨价格最多相差10%左右。但即使减到10%的价格,价差套利机会仍然还是有很大空间。
除此之外北京广州之间的套利机会也较大,320天内有231天的套利时间窗口,与广州上海差不多。这主要原因也是南北差异较大,广州的气候条件使得其可以全年开工,因此冬季也是有需求。而上海和北京通常冬季无法施工,因此构成了价差,也给企业带来了套利机会。
10
结论与展望
从区域间的生产量和消费量来看,每年的跨区交易的贸易总额达到接近2.7万亿元。由此可见钢材的现货跨区交易对于现货贸易商和生产商来说是重要的交易组成部分,而区域间的价差更是跨区交易的重要指标。为了能够辅助现货企业进行跨区交易,我们从基本面量化的角度提出客观具体的解决方案。
首先我们通过可能相关的因子通过线性回归的方法进行筛选,将影响不同的地区价差的主要显著性因子列举出来。除了为最终的模型的建立提供因子库,也对通过显著性分析给现货企业提供一些能够影响价差的重要指标。
其次我们通过全子集回归和滚动回测,针对北上广三地之间的价差构建了预测模型。回测数据全部采用样本外数据以保证模型的实战意义。回测区间在周度模型在3年,月度模型4年。在回测区间内,模型获利区间在40%到300%,其中广州到北京的螺纹钢价差月度模型最优,获利接近300%,胜率在62%左右。可见大部分模型具有一定的稳健性和盈利性。
最后,我们发现一些存在的问题:
第一, 基本面的相关数据有限,供给方面数据较多,而需求端数据较少,尤其地方性的需求端数据较少。而通过基本面的分析,我们知道地区内的供需平衡对不同地区间的价格有很大影响。因此我们需要进一步挖掘高品质可靠的需求数据。
第二, 模型建立我们主要采取线性模型,而在实际应用中,可能因子之间不仅存在线性关系,还有非线性的关系。需要对基本面的深入研究以及数据的理解,对模型进行调整以达到更加优化的模型。
第三, 最初选入的指标是基于基本面框架选取,可能过于主观,有可能会有一些没有考虑进去的显著性因子影响跨区价差。
11
风险提示
不确定因素干扰使模型失效。
参考文献
Elliott, G., A. Gargano, and A. Timmermann(2013). Complete subset regressions. Journal of Econometrics 177(2), 357-373.
Zou, H., & Hastie, T. (2005).Regularization and variable selection via the elastic net. Journal of the royalstatistical society:series B (statistical methodology), 67(2), 301-320.
附表
东证衍生品研究院现已入驻扑克财经app
扫描下方二维码
即可加入东证衍生品研究院圈子
↓ ↓ ↓
千元付出 ✅ 百万入手
实体产业与金融领域大咖云集之处
——《扑克-百家研究院》
一对一精准解答行业投资策略、产业信息和投研逻辑
百家研究院现已覆盖宏观对冲、投资交易、
黑色产业、能源化工、金属、农产品……
扫描下方图片二维码,等你来挑战↓↓↓
详情请点击“阅读原文”查看扑克圈子